2024年4月にアップデートした、GPT-4 Turboの実力
OpenAIとChatbot Arenaの結果を2つ紹介する。
結論
前回のAPI versionと比較して、特に推論能力が大幅に強化されている。
ChatGPT有料版はすでにこのアップデートが反映されている
感じたこと
ほとんどの処理は、ChatGPTの有料版を使えば合格点と言える。
一部の特殊なケースでは、引き続きClaude3を使用するのが良さそう。 長文処理が必要なタスク(論文翻訳や要約)
より自然な日本語が必要なタスク
生成速度が気になるほど、急いでいるタスク
OpenAIの実験結果
Evals
結果
前回のAPI(gpt-4-0125-preview)との比較
https://scrapbox.io/files/661b2acbd954a7002618353d.png
https://scrapbox.io/files/661aff9821dd1700251dba27.png
gpt-4-turbo-2024-04-09が、ほぼ全てのタスクで、前回を上回る結果に。
推論能力が大幅に強化されたといえる
特に、GPQA(大学院レベルの激ムズデータセット)のスコアが、顕著に上昇 Knowledge cutoffも2023年12月となり、MMLU/DROPなどのスコア改善に寄与しているか。 https://scrapbox.io/files/661b04f170ac9200255727c3.png
上2つが今回の実験結果
emptyは、system messageが空
lmsysは、以下のFastChatで設定されたsystem message
明確にClaude3 Opusより優れている!とはなかなか言えない結果で、同じかやや性能がいいくらいという認識で良いだろう。 https://scrapbox.io/files/661b05a33053fb00246d4f14.png
gpt-4-turbo-2024-04-09が、4/5のタスクで上回る結果に。
Chatbot Arenaでの結果
https://scrapbox.io/files/661b24d4f0661f0025010250.png
総合評価では、gpt-4-turbo-2024-04-09が、Arena Eloレーティングで首位を獲得
https://scrapbox.io/files/661b269ffaed0c0025f8bed4.png